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摘 要 : [目的 /意义 ] 研究 者 需要 的 论文 引用 关联 需要 获知 施 引 文献 引用 的 被 引 论文 ， 

但 我 们 常用 的 下 载 数据 中 却 只 包含 施 引 文献 引用 的 参考 文献 。 只 有 建立 参考 文 
献 条 目 与 被 引 论文 之 间 的 映射 ， 才 能 让 引文 分 析 的 研究 突破 瓶颈 、 焕 发 生机 。 
[方法 /过 程 」 本 文 提 出 组 合 使 用 DOI 匹配 和 多 字段 组 配 的 方法 ， 基 于 对 下 载 
论文 数据 的 拆 分 或 解析 ， 本 地 创建 被 引 论文 与 施 引 文献 的 参考 文献 条 目的 关联 。 
[结果 /结论 ] 创建 论文 引用 关联 是 一 个 基础 性 的 数据 处 理 环 节 ， 可 以 支持 多 种 
分 析 和 应 用 的 开展 ， 将 为 科学 计量 学 开局 广阔 的 发 展 空间 。 
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自 加 菲尔德 创立 引文 索引 以 来 ， 引 文 分析 在 理论 、 方 法 和 工具 等 方面 取得 了 全 
方位 发 展 ， 在 文献 关联 揭示 、 论 文 计量 与 评价 、 学 科 结 构 分 析 和 科学 规律 探究 等 方 
面 已 见 诸多 应 用 。 引 文 分 析 的 数据 基础 ， 是 由 施 引文 献 引 用 参考 文献 而 得 的 论文 之 
间 的 引用 关系 ， 即 “被 引 论文 = 参考 文献 > 施 引 文献 ”。 在 研究 者 们 的 语 境 里 ， 引 用 
关系 一 般 指 的 是 “被 引 论文 > 施 引 文献 ”关联 ， 其 中 默认 了 已 有 “被 引 论文 = 参考 文 
BR” 映射 关系 ; 不 过 , 商业 数据 库 目前 却 只 能 提供 “和 被 引 论 文 = 参 考 文 献 > 施 引文 献 ” 
数据 的 下 载 ， 并 不 包含 前 面 的 映射 关系 ， 与 此 同时 ， 由 于 缺少 便捷 可 用 的 工具 ， 普 
通 研究 者 又 很 难 凭借 一 己 之 力 将 缺失 的 映射 关系 补 全 。 最 终 ， 论 文 引用 关系 数据 表 
现 为 “ 线 上 不 好 “ 整 ”、 线 下 不 完整 ”,， 在 正常 的 引用 网 络 中 制造 出 了 多 处 “ 断 点 ” 
LR 1 中 的 虚线 链接 ) ， 严 重 阻 碍 了 引文 分 析 在 方法 研究 、 指 标 探 索 和 规律 分 析 
等 方面 向 更 深入 、 更 科学 的 方向 发 展 ， 是 引文 分 析 研 究 与 应 用 中 的 “ 卡 脖子 ”问题 。 
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1 论文 间 的 引用 关系 示意 图 


要 突破 上 述 瓶 颈 、 创 建 “ 被 引 论文 ?> 施 引 文献 ”关联 ， 根 本 上 是 建立 “被 引 论 
文 = 参考 文献 ”映射 关系 ， 即 打通 图 1 中 标记 为 中 的 虚线 链接 。 瑞 典 计量 学 家 Olle 
Persson 曾 断 言 将 论文 和 施 引文 献 加 以 对 比 会 有 巨大 潜力 山 ， 我 们 也 可 以 预见 ， 如 果 
含有 完整 引用 关系 的 论文 数据 能 够 方便 地 获得 ， 不 乏 创 新 性 的 研究 者 们 必定 能 在 方 
法 研究 、 指 标 探索 和 应 用 拓展 等 方面 赋予 引文 分 析 更 大 的 施展 空间 ， 激 发 出 强大 的 
研究 活力 并 开拓 出 更 有 价值 的 应 用 前 景 。 为 此 ， 本 研究 以 Web of Science (Wos) F 
台 下 载 的 论文 数据 集 及 其 对 应 的 施 引 文献 数据 集 ( 含 参考 文献 ) 为 例 ， 提 出 本 地 创 
建 被 引 论文 与 施 引 文献 关联 的 方法 ， 介 绍 在 方法 研究 和 评价 指标 探索 上 的 现实 用 例 ， 
并 进一步 探讨 所 提 方 案 的 缺陷 和 优化 措施 。 


1 现状 述评 


1.1 论文 引用 关系 数据 


多 年 来 ， 国 内 外 学 者 使 用 论文 引用 关系 进行 过 许多 研究 ， 主 要 有 使 用 引用 频次 
(高 被 引 〉 进行 评估 ， 借 助 引用 关联 〈 共 被 引 、 参 考 文献 耦合 等 ) 开展 引用 网 络 分 
析 ， 以 及 将 引用 结合 文献 其 他 特征 来 尝试 关联 分 析 等 几 种 类 型 。 相 关 研 究 中 ， 直 接 
使 用 “参考 文献 > 施 引 文献 ”数据 的 占 多 数 ， 使 用 施 引 文献 数据 的 研究 相对 较 少 ， 
构建 和 使 用 “被 引 论文 ?> 施 引 文献 ”关联 的 研究 则 很 少 。 原 始 引用 关系 数据 方面 ， 
多 数 研 究 是 从 WoS、Scopus、CSCD、CSSCI、CNKI 等 数据 库 中 获取 ， 是 较为 常见 
的 情况 ， 有 些 研 究 者 有 条 件 使 用 底层 引文 数据 ， 如 SCI 光盘 数据 、WogS BP 数据 等 ， 
但 不 具 普 适 性 。 

使 用 参考 文献 数据 的 研究 大 致 可 分 为 两 类 : 一 是 单纯 使 用 引用 关联 数据 ， 即 施 
引文 献 的 参考 文献 字段 ， 统 计 分 析 参 考 文献 信息 项 中 包含 的 作者 、 期 刊 、 年 份 等 ， 
或 参考 文献 共 被 引 分 析 、 施 引文 献 的 参考 文献 耦合 分 析 等 ， 但 因 信息 项 少 而 大 多 仅 
作为 过 程 结果 ; 二 是 对 具有 引用 关联 的 论文 进行 其 他 关联 分 析 ， 即 将 参考 文献 与 其 
他 内 外 部 特征 相 结合 ， 开 展 参考 文献 与 关键 词 、 被 引 作者 与 关键 词 、 被 引 作 者 与 论 


文 作 者 、 期 刊 互 引 、 参 考 文献 年 份 与 共 被 引 关 系 ， 以 及 近 些 年 多 见 的 引用 内 容 分 析 
等 ， 所 需 数据 项 较 丰 富 ， 但 主要 需求 仍然 可 由 单一 数据 集 来 满足 。 

使 用 施 引 文献 数据 的 研究 也 主要 有 两 种 类 型 : 一 类 是 在 数据 集 层面 ， 单 独 使 用 
施 引 文献 数据 集 或 组 合 使 用 被 引 论文 和 施 引 文献 两 个 数据 集 进 行 计 量 和 分 析 ， 但 并 
不 求 被 引 论文 与 施 引 文献 的 一 对 一 关联 ， 另 一 类 做 法 是 逐 篇 获得 被 引 论文 的 施 引 文 
献 ， 但 因 跳 过 了 将 被 引 论文 与 具体 参考 文献 条 目 映 射 的 过 程 ， 故 而 多 数 只 能 用 于 小 
规模 数据 集 ， 且 所 得 数据 集 很 难 有 后 续 通 用 性 。 

在 关联 被 引 论文 与 具体 参考 文献 条 目的 案例 中 ，Olle Persson! Hsr Bibexcel 
软件 在 此 方面 的 功能 , 使 用 按 Wos 参考 文献 样式 组 合 出 的 字符 串 或 DOI 去 精确 匹配 
和 关联 ， 遗 憾 的 是 该 软件 向 用 户 反馈 的 只 是 被 引 论文 与 施 引 文献 的 对 应 ， 而 不 是 具 
体 到 对 应 的 参考 文献 条 目 ; 祝 清松 、 冷 伏 海 BI 曾 使 用 HistCite 软件 的 “本 地 被 引 次 数 ” 

(LCS) 功能 将 数 十 篇 被 引 论文 关联 到 施 引 文献 的 参考 文献 条 目 ， 该 软件 适 于 分 析 单 
个 数据 文件 工作 ， 且 需 较 多 的 后 续 人 工 操 作 才能 导出 结果 和 使 用 ; 秦 晓 慧 、 乐 小 旋 外 
曾 提 到 使 用 自 编 Java 程序 构建 以 单 篇 论文 为 核心 的 论文 前 后 向 引用 网 络 ， 但 并 未 展 
开 描 述 关联 构建 细节 。 


1.2 引用 关系 数据 工具 


图 情 领域 中 尚未 见 到 专门 用 于 处 理 引 用 关系 数据 的 工具 ， 但 多 数 文献 计量 分 析 
工具 或 平台 都 具有 一 定 的 引用 关系 统计 功能 。 论 文 和 报道 中 多 有 提 及 的 工具 有 十 多 
种 , 包括 Citespace、Bibexcel、 VOSviewer、 CitNetExplorer、 Sci2、SciMAT、HistCite、 
TDA、SATI、ItgInsight、Bicomb、RefViz、bibliometric.com、COOC 等 ， 探 究 后 发 
Dh: 现 有 工具 或 平台 均 不 能 友好 地 支撑 用 户 自 建 本 地 论文 引用 数据 库 ， 实 际 上 它们 
主要 是 面向 普通 用 户 的 数据 统计 应 用 ， 功 能 重心 并 不 是 面向 专业 用 户 的 基础 数据 操 
作 ; HistCite 和 Bibexcel 能 够 在 一 定 程度 上 支持 被 引 论 文 与 施 引 文献 的 关联 ， 但 操作 
繁琐 上 且 功 能 有 限 ; Citespace 软件 的 共 被 引 分 析 ， 实 为 针对 数据 集 内 的 所 有 参考 文献 
条 目 开 展 。 需 要 说 明 是 ， 另 有 多 种 R、Python 或 其 他 编程 语言 环境 下 的 工具 包 可 以 
进行 文献 计量 分 析 ， 限 于 时 间 和 精力 ， 本 文 并 未 进行 扩展 和 探索 。 

Bibexcel 软件 外 使 用 “Citations among docs” 功 能 来 关联 被 引 论文 与 施 引 文献 ， 
共有 两 种 方式 : 一 是 多 字段 匹配 功能 (Make citation links among WoS-records )， 按 照 
WoS 参考 文献 的 字段 样式 ， 从 每 条 论文 数据 中 抽取 所 需 信 息 组 合成 参考 文献 样式 ， 
去 数据 集中 匹配 ， 二 是 使 用 DOI 匹配 (Make citation links based on DOI)。 运 行 功能 
后 可 获得 两 列 编号 : 分 别 是 施 引 文献 和 被 引 论文 在 数据 文件 中 顺序 号 ; 使 用 Add field 
to units” 功 能 ， 可 以 分 别 往 该 列表 中 添加 施 引 文献 的 ID CWoS 数据 中 的 UT 字段 ) 
和 被 引 论文 的 ID， 由 此 可 得 施 引 文献 与 被 引 论文 的 引用 关系 。 经 过 测试 ，Bibexcel 
软件 的 多 字段 匹配 与 DOI 匹配 所 获 引 用 关系 数量 不 一 致 ， 在 实际 使 用 中 可 将 二 者 取 
并 集 。 软 件 设计 目的 并 非 支 撑 用 户 构 建 本 地 分 析 数 据 库 ， 不 太 能 够 胜任 创建 论文 引 
用 关系 数据 库 的 需求 。 


HistCite 软件 具有 “本 地 被 引 次数 ”(LCS) 功能 ， 可 以 得 到 施 引 文献 集 加。 该 软 
件 同样 采用 多 字段 匹配 模式 ，“ 精 确 匹 配 ” 到 施 引 文献 的 参考 文献 条 目 ， 不 支持 使 
用 DOI 字段 的 匹配 。 使 用 软件 中 的 导出 功能 ， 将 记录 按照 “LCS” 排 序 并 记录 下 每 
篇 论文 的 顺序 号 ， 然 后 点 击 每 条 记录 后 面 的 LCS 数值 即 可 打开 本 地 施 引 文献 列表 ， 
并 可 以 导出 为 CSV 格式。 不 过 ， 后 续 还 需要 根据 论文 的 顺序 号 补充 上 每 篇 被 引 论 文 
的 ID， 才能 够 获得 数据 文件 中 被 引 论文 与 施 引 文献 的 对 应 关系 。 该 软件 一 次 只 能 处 
理 一 个 TXT 文 要 ， 且 需要 较 多 的 人 工 操作 ， 故 只 适用 于 小 数据 量 的 应 用 。 

从 操作 上 来 看 ，Bibexcel 和 HistCite 基于 多 字段 组 合 后 精确 匹配 的 字符 串 ， 对 作 
者 姓名 的 拼写 形式 极为 敏感 ， 稍 有 不 同 即 无 法 匹配 ; Bibexcel 匹配 的 结果 仍然 要 手动 
关联 被 引 论文 与 施 引 文献 的 参考 文献 条 目 ; HistCite 匹配 施 引文 献 的 结果 还 需要 按照 
被 引 论文 的 顺序 号 去 手动 对 应 ， 总 体 而 言 并 不 能 满足 实用 需求 。 


2 论文 引用 关联 构建 方法 


引文 分 析 研 究 在 理论 探索 、 方 法 创新 和 应 用 拓展 等 方面 均 离 不 开 基 础 引用 关系 
数据 的 支撑 。 为 了 获得 所 需 的 论文 引用 关联 ， 我 们 针对 从 WoS 分 别 下 载 的 论文 数据 
集 及 其 对 应 的 施 引 文献 数据 集 ， 经 过 研究 和 探索 提出 组 合 使 用 “DOI 匹配 ”和 “多 
字段 组 配 ” 的 关联 方法 〈 见 表 1)， 将 被 引 论文 匹配 到 施 引 文献 的 参考 文献 条 目 《〈 被 
引 论文 = 参考 文献 )， 从 而 实现 为 本 地 数据 集 创建 基础 引用 关系 的 功能 ， 进 而 支撑 数 
据 库 层面 的 各 种 分 析 和 统计 操作 。 


表 1 期 刊 论 文 引 用 关联 匹配 依据 


关联 匹配 依据 使 用 方式 

DOI 匹配 有 则 优先 

多 字段 组 配 M1 | M2 | M3 | M4 | M5 | M6 
© 一 作 姓名 JINJIN 

一 作 姓氏 af 

@ | 出 版 年 V |v |v] 4 

© | 期 刊 名 称 W a s a S 

@ | 出 版 卷 |) Fe lo | | 无 
© | 出 版 期 VV IVY 无 Iv 无 | 
© | 起 始 页 af) | | 无 | 无 | 无 

DOI 匹配 并 不 复杂 ， 但 需 经 过 两 个 预 处 理 步 骤 才 可 使 用 : 一 是 字符 规范 ， 可 以 


部 分 纠正 引文 数据 在 OCR 环节 引入 的 字符 识别 错误 ; 二 是 为 了 能 够 匹配 参考 文献 中 
所 含 DOI， 需 要 逐条 对 参考 文献 条 目 中 的 信息 进行 解析 ， 判 断 其 中 DO 的 完整 性 和 
数量 。 有 的 数据 库 中 可 见 到 一 条 参考 文献 条 目标 记 有 多 个 DOI 的 情况 ， 则 不 能 使 用 
这 种 情形 下 的 DOI 信息 进行 引用 关联 创建 。 

多 字段 组 配 是 将 被 引 论文 的 相关 信息 按照 数据 源 的 特色 样式 组 配 起 来 ， 去 与 解 


析 后 重新 组 配 的 施 引文 献 的 参考 文献 匹配 。 如 要 考虑 多 来 源 数据 集合 并 使 用 的 需求 ， 
则 还 需 将 所 有 参考 文献 条 目 都 进行 精确 解析 ， 并 定义 一 个 统一 的 多 字段 组 配 规则 ， 
本 文采 用 的 是 表 1 中 的 M1. M2 和 M3。 经 过 摸索 ， 在 多 字段 组 配 中 有 四 项 内 容 需 
作 进 一 步 探讨 : 论文 页 码 、 第 一 作者 姓名 和 姓氏 的 使 用 场景 及 理由 、 来 源 期 刊 名 称 ， 
以 及 多 来 源 数据 融合 场景 下 的 处 理 。 

(人 ) 论 文 页 码 。 页 码 是 有 效 区 分 论文 的 关键 信息 之 一 ， 尤 其 是 在 其 他 组 配 字段 不 
太 完 整 的 时 候 ， 页 码 信息 的 重要 性 就 更 为 凸显 。 若 论文 缺少 页 码 信息 ， 则 通过 多 字 
段 组 配 的 方式 创建 的 论文 引用 关联 ， 很 可 能 会 错误 地 匹配 上 无 关 论 文 ， 此 种 情况 必 
须 施 加 额外 校 验 ， 若 论文 页 码 存在 ， 只 需要 使 用 起 始 页 即 可 。 

(2) 第 一 作者 姓名 的 处 理 。 厘 清 同一 作者 姓名 的 不 同 拼写 方式 一 直 是 一 个 难题 。 
从 WoS 数据 库 的 实际 数据 来 看 ， 部 分 中 国学 者 的 拼音 姓名 存在 姓氏 和 名 字 苏 倒 ， 或 
是 两 个 字 的 名 字 仅 仅 被 标记 为 一 个 首 字 母 (如 “Qian, Xuesen” 被 标记 为 “Qian, X.”) 
等 情况 ;外 国学 者 则 主要 存在 由 是 否 写 全 中 间 名 而 带 来 的 拼写 形式 差异 。 因 此 ， 在 
兼顾 容错 性 和 准确 度 的 情况 下 ， 我 们 在 其 他 组 配 字段 完整 时 仅 使 用 作者 的 姓氏 ， 这 
样 能 尽 可 能 多 地 创建 论文 引用 关联 (如 表 1 中 的 M1); 在 缺少 卷 或 期 时 使 用 作者 的 
姓名 缩写 〈 如 表 1 中 的 M2 和 M3)， 以 降低 出 错 的 概率 。 

(3) 来 源 期 刊 名 称 。 不 同 的 数据 库 对 期 刊 名 称 的 标记 略 有 差别 ， 有 的 使 用 简称 (如 
Wos 数据 )， 有 的 使 用 全 名 (如 Scopus)， 国 内 中 文 期 刊 名 称 则 基本 上 都 是 全 名 。 为 
了 处 理 多 来 源 数据 时 匹配 ， 应 创建 并 维护 期 刊 信息 表 ， 以 便于 简称 、 全 名 的 映射 。 

(4) 多 来 源 数据 融合 场景 。 多 来 源 数 据 时 的 论文 引用 关联 构建 ， 需 要 识别 并 标记 
各 个 来 源 中 共有 的 论文 记录 ， 然 后 将 各 个 来 源 的 参考 文献 样式 加 以 统一 ， 并 结合 使 
用 论文 DOI。 需 要 指出 的 是 ，WoS 数据 库 的 参考 文献 条 目 中 并 不 包含 “出 版 期 ” 信 
息 , 其 规则 无 法 区 分 只 有 期 数 不 同 的 多 篇 论文 (如 DOT 为 10.7500/AEPS20170601011 
和 10.7500/AEPS20170120004 的 这 两 篇 ), 故 不 能 用 作 多 来 源 数据 场景 下 的 统一 样式 。 

经 过 上 述 处 理 之 后 ， 就 可 以 实施 论文 记录 与 参考 文献 条 目的 匹配 ， 进 而 在 本 地 
数据 库 中 创建 论文 引用 关联 。 为 了 验证 实际 效果 ， 我 们 随手 选 了 一 个 来 自 Wos HE 
参考 文献 的 数据 文件 , 分别 用 HistCite. Bibexcel 和 本 文 所 提 关 联 构建 方法 加 以 实验 ， 
结果 为 : HistCite 获得 428 对 关系 ,Bibexcel 共 获 得 655 对 关系 , 本文 方 法 获得 了 592 
对 关系 。 经 人 工 校 验 发 现 : HistCite 虽然 匹配 关系 数量 少 但 无 错误 ; Bibexcel 有 75 
对 关系 匹配 错误 ， 但 错误 原因 却 难以 判断 ; HistCite 中 有 3 对 关系 Bibexcel 未 能 匹配 
上 ;本 文 方法 所 获 结果 数量 比 HistCite 多 了 164 对 关系 , tÉ Bibexcel 多 了 12 对 关系 。 


3 论文 引用 关联 的 应 用 


创建 论文 引用 关联 后 ， 研 究 者 的 可 用 数据 将 从 孤立 的 论文 数据 集 拓展 为 关联 的 
“被 引 论文 ?> 施 引文 献 ”数据 集 ， 进 而 能 够 循 着 论文 引用 链条 开展 前 后 向 直接 、 间 
接 引 用 分 析 以 及 结合 文献 特征 的 多 角度 关联 分 析 。 被 引 论文 和 施 引 文献 关联 后 的 部 


分 
用 


表 2 论文 与 施 引 文献 关联 的 应 用 潜力 


分 潜在 应 用 见 表 2。 受 表格 维度 的 限制 , 表 中 只 能 简单 展现 出 两 个 字段 关联 的 潜在 应 
， 若 使 用 更 多 字段 则 有 望 开拓 出 更 多 可 能 。 


论文 


作者 


PR eee r o laea 
HIR a-o | 作者 机 构 | xa 学 科 参考 文献 “| 被 引 次 数 
作者 “| 作者 自 引 / 互 | 作者 引用 机 | 作者 引用 主 | 作者 引用 学 | 作者 潜在 知识 | 作者 引用 模 
(第 一 /通讯 ) | 引 / 直 接 引 用 | 构 题 科 基础 式 
作者 机 构 “| 作者 的 机 构 机构 自 引 / 互 机 构 引 用 主 机构 引 用 学 机 构 潜在 知识 | 机 构 引用 模 
影响 力 引 / 直 接 引 用 | 题 科 基础 式 
关键 词 “| 作者 的 主题 | 机 构 的 主题 | 主题 关联 或 学 科 主题 演 洪 在 主题 关联 、| 主 题 热 度 和 
影响 力 影响 力 演化 化 知识 基础 持续 度 
学 科 “| 作者 的 学 科 | 机 构 的 学 科 | 学 科 主 题 演 学科 直 引 / | 学 科 潜在 知识 | 学 科 引 用 模 
aa 影响 力 影响 力 化 互 引 基础 式 
责任 作者 被 | 主导 机 构 被 | ces cry ve lame cr ge ata , 、 
3 主题 被 引 演 | 学 科 被 引 演 |，，、，_，、， | 被 引 时 间 分 
出 版 年 ene ie 化 和 趋势 “| 化 和 趋势 ”| 知识 流动 速度 | 布 及 趋势 
期 刊 “| 作者 的 期 刊 | 机构 的 期 刊 | 主题 的 期 刊 | 学 科 的 期 刊 | 期 刊 潜在 知识 | 加 权 被 引 统 
影响 力 影响 力 影响 力 KH ” “| 基础 计 
aes pie ae eai O O e leae 
E a 、 FAT 、 WAT 献 共 被 引 HZ 
ana | 论文 被 引 规 | 论文 被 引 规 ERREA e |、 、， ,| 论文 被 引 规 
被 引 次 数 “| 和 ie rege 。 | 学 科 热 度 “| 论文 被 引 规律 mw 


基于 厘清 的 论文 引用 关系 ， 我 们 已 经 开展 了 几 种 现实 应 用 ， 例 如 多 种 规则 的 自 


3.1 自 定义 规则 的 自 引 统计 


论文 收录 引 训 


引 统计 、 学 术 影 响 贡 献 度 分 析 、 数 据 集 内 共 被 引 分 析 以 及 使 用 加 权 被 引 评价 论文 等 。 


FE 工作 一 直 是 各 图 书馆 的 传统 业务 ， 经 常 在 项 目 结 题 、 奖 项 申报 和 


人 才 评 选 等 场合 提供 客观 数据 的 支撑 。 在 统计 论文 被 引 数 据 时 ， 经 常 需 要 单列 或 排 
除 自 引 次 数 ， 但 自 引 的 认定 可 以 是 作者 自 引 、 合 著者 自 引 或 者 机 构 自 引 等 规则 ， 并 


且 可 能 与 数据 库 平台 的 规 由 


的 作者 姓名 规范 、 署 名 情况 梳理 


不 一 致 ， 故 而 实际 工作 中 常常 需要 人 工 判断 自 引 次 数 。 
在 构建 论文 论文 引用 关联 之 后 ， 清 晰 掌握 论文 的 每 一 次 被 引 来 源 
、 隶 属 机 构 拆 分 等 数据 解析 工作 ， 可 以 区 分 出 来 自 


， 结 合 对 论文 


国内 外 、 机 构 内 外 、 特 定 作 者 群体 内 外 的 引用 以 及 互 引 ， 也 就 能 方便 地 统计 出 各 种 


规则 下 的 自 引 次 数 。 因 论文 自 引 统计 的 原理 


3.2 学 术 影 响 贡 献 度 分 析 


高 校 和 科研 院 所 时 


党 a 


需要 统计 科研 论文 情况 ， 可 能 涉 
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BON HAMA, FRI TEI AE BE 


及 论文 的 数量 统计 、 本 单 


位 署名 情况 、 被 引 次 数 等 ， 更 深入 的 会 分 析 责 任 人 及 其 二 级 机 构 、 被 引 情况 和 学 术 
影响 力 分 布 等 内 容 。 以 往 的 被 引 统计 ， 只 能 使 用 数据 库 平台 给 出 的 累积 总 被 引 次 数 
和 其 他 统计 值 ， 如 “ 破 四 唯 ” 之 前 被 经 常 使 用 的 WoS 被 引 次 数 和 ESI 全 球 前 1% 学 
科 指 标 。 不 过 ， 这 种 统计 只 能 限定 统计 对 象 的 发 文 年 而 不 能 按 需 设 定 被 引 年 范围 ， 
例如 : 要 了 解 本 单位 论文 的 “ 近 两 年 情况 ” 只 能 看 近 两 年 发 表 论文 的 情况 ， 却 很 难 
分 析 本 单位 历年 论文 在 近 两 年 中 的 被 引 情况 。 
基于 本 地 化 的 论文 引用 关系 ， 能 够 根据 需要 对 来 自 数据 库 平台 的 被 引 数据 进行 
进一步 限定 和 操作 。 对 此 ， 我 们 主要 探索 了 两 种 类 型 的 应 用 : 一 种 是 按 施 引 年 份 来 
统计 论文 被 引 情况 ， 以 揭示 更 具 时 效 性 的 学 术 影响 力 分 布 ， 如 “ 某 单位 论文 的 近 两 
年 被 引 情况 ” 二 是 根据 ESI 的 统计 规则 来 限定 施 引 文献 的 期 刊 范围 和 文献 类 型 ， 统 
计 出 特定 单位 已 进入 和 未 进入 全 球 前 1% 学 科 的 历次 表现 及 变化 趋势 ,以 及 内 部 二 级 
机 构 在 被 引 方面 的 贡献 度 和 表现 特征 ， 用 以 辅助 科研 单位 的 学 科 发 展 规划 。 


3.3 数据 集 内 共 被 引 分 析 


前 些 年 ， 学 者 们 在 开展 共 被 引 分 析 时 广泛 使 用 Citespace 软件 。 不 过 ， 该 软件 的 
共 被 引 结果 取决 于 使 用 者 所 用 的 基础 数据 类 型 : 若 为 目标 论文 数据 集 ， 则 所 得 结果 
为 该 论文 集 引 用 的 参考 文献 之 间 的 共 被 引 关 系 ; 若 为 施 引 文献 数据 集 ， 则 结果 为 包 
含 目 标 论文 和 其 他 被 引 参 考 文献 的 共 被 引 关 系 。 上 述 两 种 结果 ， 均 不 是 使 用 者 实际 
期 望 的 目标 论文 之 间 的 共 被 引 关 系 。 
因此 ， 通 过 将 被 引 论文 关联 到 施 引 文献 的 参考 文献 条 目 ， 能 够 轻松 获得 特定 论 
文集 合 的 共 被 引 关系 ， a a 被 引 分 析 ， 进 而 可 
以 利用 文献 计量 手段 分 析 领 域 的 知识 基础 、 领 域 前 沿 ， 并 将 共 被 引 关 联 拓展 应 用 到 
学 者 、 期 刊 、 单 位 、 主 题 等 其 他 分 析 对 象 。 


3.4 使 用 加 权 被 引 评价 论文 


在 网 络 搜索 引擎 领域 , Google 凭借 PageRank 排名 算法 在 创建 初期 快速 赢得 了 用 
PAT, 其 灵感 正 是 来 自 于 文献 计量 中 的 论文 引用 。 网 页 没有 可 供 参考 的 初始 权重 ， 
而 且 存 在 闭环 超 链接 的 情况 ， 故 PageRank 使 用 随机 路 径 来 计算 每 个 网 页 的 权重 ; 与 
之 不 同 的 是 ， 论 文 引用 只 能 由 新 到 旧 单 向 发 展 ， 而 且 绝 大 多 数 的 期 刊 论 文 都 具有 天 
然 的 初始 权重 一 一 期 刊 影响 因子 。 

在 当前 “ 破 四 唯 ” 的 评价 导 同 下 ， 社 会 各 界 普遍 地 不 再 片面 强调 被 引 次 数 的 高 
低 、 不 再 粗暴 地 以 刊 评 文 。 在 这 一 背景 下 ， 我 们 尊重 许多 学 科 都 有 广 受 认可 的 优秀 
期 刊 的 客观 实情 ， 将 施 引文 献 的 期 刊 影响 因子 用 作 施 引 权 值 ， 来 取代 以 往 不 考虑 施 
es 从 而 获得 了 论文 的 加 权 被 引 次 数 《〈 详 情 将 另行 扎 文 

)。 由 此 带 来 了 两 个 变化 : E uence ane = 
eres E 有 反映 论文 的 实际 学 术 影 响 ， 二 是 有 望 借 助 提高 有 效 被 引 的 门槛 ， 来 降 


低 一 部 分 不 规范 引用 行为 的 发 生 。 论 文 加 权 被 引 的 做 法 ， 三 年 来 一 直 为 北京 市 科 协 
举办 的 “北京 地 区 广 受 关注 学 术 成 果 ” 的 洲 选 及 系列 报告 会 提供 定量 支撑 。 


4 问题 与 展望 


以 可 便捷 获取 的 常规 论文 数据 为 基础 ， 本 文 提 出 组 合 使 用 “DOI 匹配 ”和 “多 
字段 组 配 ” 的 论文 引用 关联 方法 ， 用 于 精确 创建 本 地 数据 集 内 的 论文 引用 关系 ， 将 
为 专业 人 员 开 展 引 文 分 析 方 面 的 方法 研究 、 指 标 探索 和 评价 应 用 提供 重要 的 基础 条 
件 。 以 往 的 分 析 受 制 于 参考 文献 条 目 包 含 信息 太 少 ， 如 今 扩 展 为 带 有 丰富 内 外 部 特 
征 的 施 引文 献 与 被 引 论文 ， 为 基于 引用 链条 开展 的 单个 或 混合 式 文献 特征 关联 分 析 
打开 了 探索 的 大 门 。 

为 了 更 好 地 使 用 创建 引用 关联 后 的 基础 数据 ， 我 们 也 必须 清晰 地 了 解 当 前 方案 
中 可 能 存在 的 问题 。 首 先是 要 了 解数 据 中 特殊 情况 的 存在 ,， 如 只 有 卷 号 或 期 号 (WoS 
参考 文献 中 无 期 号 ) 但 无 页 码 的 情况 ， 在 进行 多 字段 组 配 时 需要 在 错 配 和 漏 配 之 间 
作出 评估 ; Wos 下 载 数据 的 参考 文献 条 目 中 存在 有 标记 多 个 DOI 的 情况 ， 并 不 能 
作 绝 对 稳妥 的 匹配 手段 。 再 者 ， 基 础 数据 来 自 单 个 数据 源 和 多 个 数据 源 是 两 种 截然 
不 同 的 情况 ， 单 一 来 源 时 要 按 其 原本 著录 的 信息 进行 多 字段 组 配 ， 使 用 修正 后 的 信 
恩 会 导致 丐 配 不 上 ; 但 多 个 数据 源 时 则 需要 使 用 修正 后 的 信息 进行 多 字段 组 配 。 更 
进一步 ， 是 逐渐 提高 所 用 方案 的 准确 性 ， 大 致 有 三 个 阶段 : 一 是 简单 地 照 原样 拆 分 
各 字段 后 使 用 ， 二 是 按 规则 解析 各 字段 后 带 一 定 校 验 的 使 用 ， 三 是 维护 和 使 用 多 种 
词 表 进行 信息 规范 。 

通过 探索 ，HistCite 多 年 未 更 新 且 匹 配 有 遗漏 、Bibexcel 存在 匹配 错误 的 情况 且 
难以 控制 ， 最 适合 的 方案 是 组 合 使 用 多 字段 组 配 和 DOI 匹配 的 方法 ， 我 们 建议 相关 
人 员 在 情况 允许 的 情况 下 逐步 追求 匹配 准确 性 的 提高 。 如 果 图 情 领 域 学 者 能 够 方便 
地 构建 带 有 准确 引用 关系 的 基础 论文 数据 开展 研究 和 探索 ， 必 将 为 科学 计量 学 开启 
更 为 广阔 的 研究 和 应 用 领域 。 
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Mapping between Paper and Citing Papers to Enable Citation Analysis: 
A Solution to A Bottleneck Issue in Citation Dataset 


Li-Xue WANG 
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Abstract: [Purpose /significance] Citation Analysis has been suffered all the time from 
crippled citation data without Links between cited Paper and Citing Papers in 
hand. Database vendors allow only Reference Items download while keep the 
real needed Links in the backstage. Scholars have to find ways to establish the 
Links, so they can break through the bottleneck. [Method /process] We propose 
a method of combining DOI matching and multi-field matching to create local 
mappings between cited Paper and Reference Items of Citing Papers, based on 
the splitting or parsing of downloaded citation data. [Result /conclusion] As a 
fundamental step in data processing, mapping Links will support a variety of 
analysis and applications, and will open up a broad space for scientometrics. 

Keywords: Citation Analysis; Citing Paper; Citation Link; Citation Data; Bibliometrics 
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